3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
一个常见的分类任务情况是,有大量数据可用于培训,但只有一小部分用类标签注释。在这种情况下,半监督培训的目的是通过利用标记数据,而且从大量未标记的数据中提高分类准确性。最近的作品通过探索不同标记和未标记数据的不同增强性数据之间的一致性约束,从而取得了重大改进。遵循这条路径,我们提出了一个新颖的无监督目标,该目标侧重于彼此相似的高置信度未标记的数据之间所研究的关系较少。新提出的对损失最大程度地减少了高置信度伪伪标签之间的统计距离,其相似性高于一定阈值。我们提出的简单算法将对损失与MixMatch家族开发的技术结合在一起,显示出比以前在CIFAR-100和MINI-IMAGENET上的算法的显着性能增长,并且与CIFAR-的最先进方法相当。 10和SVHN。此外,简单还优于传输学习设置中最新方法,其中模型是由在ImainEnet或域内实现的权重初始化的。该代码可在github.com/zijian-hu/simple上获得。
translated by 谷歌翻译
The growing interest in intelligent services and privacy protection for mobile devices has given rise to the widespread application of federated learning in Multi-access Edge Computing (MEC). Diverse user behaviors call for personalized services with heterogeneous Machine Learning (ML) models on different devices. Federated Multi-task Learning (FMTL) is proposed to train related but personalized ML models for different devices, whereas previous works suffer from excessive communication overhead during training and neglect the model heterogeneity among devices in MEC. Introducing knowledge distillation into FMTL can simultaneously enable efficient communication and model heterogeneity among clients, whereas existing methods rely on a public dataset, which is impractical in reality. To tackle this dilemma, Federated MultI-task Distillation for Multi-access Edge CompuTing (FedICT) is proposed. FedICT direct local-global knowledge aloof during bi-directional distillation processes between clients and the server, aiming to enable multi-task clients while alleviating client drift derived from divergent optimization directions of client-side local models. Specifically, FedICT includes Federated Prior Knowledge Distillation (FPKD) and Local Knowledge Adjustment (LKA). FPKD is proposed to reinforce the clients' fitting of local data by introducing prior knowledge of local data distributions. Moreover, LKA is proposed to correct the distillation loss of the server, making the transferred local knowledge better match the generalized representation. Experiments on three datasets show that FedICT significantly outperforms all compared benchmarks in various data heterogeneous and model architecture settings, achieving improved accuracy with less than 1.2% training communication overhead compared with FedAvg and no more than 75% training communication round compared with FedGKT.
translated by 谷歌翻译
Recently, Neural architecture search has achieved great success on classification tasks for mobile devices. The backbone network for object detection is usually obtained on the image classification task. However, the architecture which is searched through the classification task is sub-optimal because of the gap between the task of image and object detection. As while work focuses on backbone network architecture search for mobile device object detection is limited, mainly because the backbone always requires expensive ImageNet pre-training. Accordingly, it is necessary to study the approach of network architecture search for mobile device object detection without expensive pre-training. In this work, we propose a mobile object detection backbone network architecture search algorithm which is a kind of evolutionary optimized method based on non-dominated sorting for NAS scenarios. It can quickly search to obtain the backbone network architecture within certain constraints. It better solves the problem of suboptimal linear combination accuracy and computational cost. The proposed approach can search the backbone networks with different depths, widths, or expansion sizes via a technique of weight mapping, making it possible to use NAS for mobile devices detection tasks a lot more efficiently. In our experiments, we verify the effectiveness of the proposed approach on YoloX-Lite, a lightweight version of the target detection framework. Under similar computational complexity, the accuracy of the backbone network architecture we search for is 2.0% mAP higher than MobileDet. Our improved backbone network can reduce the computational effort while improving the accuracy of the object detection network. To prove its effectiveness, a series of ablation studies have been carried out and the working mechanism has been analyzed in detail.
translated by 谷歌翻译
预训练的语言模型在对话任务上取得了长足的进步。但是,这些模型通常在表面对话文本上进行训练,因此被证明在理解对话环境的主要语义含义方面是薄弱的。我们研究抽象含义表示(AMR)作为预训练模型的明确语义知识,以捕获预训练期间对话中的核心语义信息。特别是,我们提出了一个基于语义的前训练框架,该框架通过三个任务来扩展标准的预训练框架(Devlin等,2019)。根据AMR图表示。关于聊天聊天和面向任务的对话的理解的实验表明了我们的模型的优势。据我们所知,我们是第一个利用深层语义表示进行对话预训练的人。
translated by 谷歌翻译
先前的研究证明,跨语性知识蒸馏可以显着提高预训练模型的跨语义相似性匹配任务的性能。但是,在此操作中,学生模型必须大。否则,其性能将急剧下降,从而使部署到内存限制设备的不切实际。为了解决这个问题,我们深入研究了跨语言知识蒸馏,并提出了一个多阶段蒸馏框架,用于构建一个小型但高性能的跨语性模型。在我们的框架中,合并了对比度学习,瓶颈和参数复发策略,以防止在压缩过程中损害性能。实验结果表明,我们的方法可以压缩XLM-R和Minilm的大小超过50 \%,而性能仅降低约1%。
translated by 谷歌翻译
不利的天气条件(例如阴霾,雨水和雪)通常会损害被捕获的图像的质量,从而导致在正常图像上训练的检测网络在这些情况下概括了很差。在本文中,我们提出了一个有趣的问题 - 如果图像恢复和对象检测的结合可以提高不利天气条件下尖端探测器的性能。为了回答它,我们提出了一个有效但统一的检测范式,该范式通过动态增强学习将这两个子任务桥接在一起,以在不利的天气条件下辨别对象,称为Togethernet。与现有的努力不同,这些努力将图像除去/der绘制为预处理步骤,而是考虑了一个多任务联合学习问题。遵循联合学习方案,可以共享由恢复网络产生的清洁功能,以在检测网络中学习更好的对象检测,从而有助于TogEthERNET在不利天气条件下增强检测能力。除了联合学习体系结构外,我们还设计了一个新的动态变压器功能增强模块,以提高togethernet的功能提取和表示功能。对合成和现实世界数据集的广泛实验表明,我们的togethernet在定量和质量上都超过了最先进的检测方法。源代码可从https://github.com/yz-wang/togethernet获得。
translated by 谷歌翻译
图像平滑是一项基本的低级视觉任务,旨在保留图像的显着结构,同时删除微不足道的细节。图像平滑中已经探索了深度学习,以应对语义结构和琐碎细节的复杂纠缠。但是,当前的方法忽略了平滑方面的两个重要事实:1)受限数量的高质量平滑地面真相监督的幼稚像素级回归可能会导致域的转移,并导致对现实世界图像的概括问题; 2)纹理外观与对象语义密切相关,因此图像平滑需要意识到语义差异以应用自适应平滑强度。为了解决这些问题,我们提出了一个新颖的对比语义引导的图像平滑网络(CSGIS-NET),该网络在促进强大的图像平滑之前结合了对比的先验和语义。通过利用不希望的平滑效应作为负面教师,并结合分段任务以鼓励语义独特性来增强监督信号。为了实现所提出的网络,我们还使用纹理增强和平滑标签(即VOC-Smooth)丰富了原始的VOC数据集,它们首先桥接图像平滑和语义分割。广泛的实验表明,所提出的CSGI-NET大量优于最先进的算法。代码和数据集可在https://github.com/wangjie6866/csgis-net上找到。
translated by 谷歌翻译
在前景点(即物体)和室外激光雷达点云中的背景点之间通常存在巨大的失衡。它阻碍了尖端的探测器专注于提供信息的区域,以产生准确的3D对象检测结果。本文提出了一个新的对象检测网络,该对象检测网络通过称为PV-RCNN ++的语义点 - 素voxel特征相互作用。与大多数现有方法不同,PV-RCNN ++探索了语义信息,以增强对象检测的质量。首先,提出了一个语义分割模块,以保留更具歧视性的前景关键。这样的模块将指导我们的PV-RCNN ++在关键区域集成了更多与对象相关的点和体素特征。然后,为了使点和体素有效相互作用,我们利用基于曼哈顿距离的体素查询来快速采样关键点周围的体素特征。与球查询相比,这种体素查询将降低从O(N)到O(K)的时间复杂性。此外,为了避免仅学习本地特征,基于注意力的残留点网模块旨在扩展接收场,以将相邻的素素特征适应到关键点中。 Kitti数据集的广泛实验表明,PV-RCNN ++达到81.60 $ \%$,40.18 $ \%$,68.21 $ \%$ \%$ 3D地图在汽车,行人和骑自行车的人方面,可以在州,甚至可以在州立骑行者,甚至更好地绩效-艺术。
translated by 谷歌翻译
联邦学习(FL)旨在以隐私的方式从大规模的分散设备中学习联合知识。但是,由于高质量标记的数据需要昂贵的人类智能和努力,因此带有错误标签的数据(称为嘈杂标签)无处不在,实际上不可避免地会导致性能退化。尽管提出了许多直接处理嘈杂标签的方法,但这些方法要么需要过多的计算开销,要么违反FL的隐私保护原则。为此,我们将重点放在FL上,目的是减轻嘈杂标签所产生的性能退化,同时保证数据隐私。具体而言,我们提出了一种局部自我调节方法,该方法通过隐式阻碍模型记忆噪声标签并明确地缩小了使用自我蒸馏之间的原始实例和增强实例之间的模型输出差异,从而有效地规范了局部训练过程。实验结果表明,我们提出的方法可以在三个基准数据集上的各种噪声水平中获得明显的抵抗力。此外,我们将方法与现有的最新方法集成在一起,并在实际数据集服装1M上实现卓越的性能。该代码可在https://github.com/sprinter1999/fedlsr上找到。
translated by 谷歌翻译